136 research outputs found

    Probabilistic Knowledge-Based Programs

    Get PDF
    International audienceWe introduce Probabilistic Knowledge-Based Programs (PKBPs), a new, compact representation of policies for factored partially observable Markov decision processes. PKBPs use branching conditions such as if the probability of Ď• is larger than p, and many more. While similar in spirit to value-based policies, PKBPs leverage the factored representation for more compactness. They also cope with more general goals than standard state-based rewards, such as pure information-gathering goals. Compactness comes at the price of reactivity, since evaluating branching conditions on-line is not polynomial in general. In this sense, PKBPs are complementary to other representations. Our intended application is as a tool for experts to specify policies in a natural, compact language, then have them verified automatically. We study succinctness and the complexity of verification for PKBPs

    Knowledge-Based Programs as Plans: Succinctness and the Complexity of Plan Existence

    Full text link
    Knowledge-based programs (KBPs) are high-level protocols describing the course of action an agent should perform as a function of its knowledge. The use of KBPs for expressing action policies in AI planning has been surprisingly overlooked. Given that to each KBP corresponds an equivalent plan and vice versa, KBPs are typically more succinct than standard plans, but imply more on-line computation time. Here we make this argument formal, and prove that there exists an exponential succinctness gap between knowledge-based programs and standard plans. Then we address the complexity of plan existence. Some results trivially follow from results already known from the literature on planning under incomplete knowledge, but many were unknown so far.Comment: 10 pages, Contributed talk at TARK 2013 (arXiv:1310.6382) http://www.tark.or

    Génération de plans à base de connaissances

    Get PDF
    National audienceLes Knowledge-Based Programs (KBPs) associent représentation des connaissances et pla-nification. Il s'agit de protocoles décrivant les actions à effectuer par un agent, en fonction de son état de connaissance, afin d'atteindre un but donné. Ces plans possèdent une grande expressivité, grâce à l'uti-lisation de la logique modale S5, et une plus grande compacité que les plans classiques. La question de la génération de tels plans n'a été que peu étudiée. Notre objectif est de combler ce manque. Nous pro-posons des algorithmes permettant de générer des KBPs à partir de la spécification d'un état initial, d'un but et d'un ensemble d'actions disponibles. Deux types d'algorithmes sont présentés, par progression, c'est-à-dire en partant de l'état initial pour aller vers le but, et par régression, en partant cette fois-ci du but. Dans les deux cas, un algorithme de recherche en largeur est décrit, ayant la propriété de fournir un plan optimal en nombre d'actions à effectuer dans le pire cas. De même, nous exposons dans les deux cas des algorithmes de recherche en profondeur, dans lesquels une action est choisie pour chaque état de connaissance, par le biais de différentes fonctions heuristiques dont nous montrons certaines propriétés. Nous proposons également des benchmarks adaptés, pour lesquels la planification classique est moins précise, et testons nos algorithmes sur ces problèmes

    Amélioration continue d'une chaîne de traitement de documents avec l'apprentissage par renforcement

    Get PDF
    International audienceWe tackle the problem of continuous improvement of a treatment chain which extracts events from open-source documents. We use the human operators' corrections to allow the treatment chain to learn from its errors, and self-improve generally. We apply reinforcement learning (specifically Q-learning) to this problem, where the actions are the services of a treatment chain for the extraction of information. The objective is to use the user feedback to allow the system to learn the ideal configuration of the services (order, gazetteers, and extraction rules) based on the characteristics of the documents treated (language, type, etc.). We carry out the first experiments with automatically generated feedback data, and the results are encouraging.Nous nous intéressons au problème de l'amélioration continue d'une chaîne de traitement de documents, visant à extraire des événements dans des documents provenant de sources ouvertes. Il s'agit de tirer parti des corrections effectuées par les opérateurs humains pour que la chaîne de traitement apprenne de ses erreurs, et s'améliore de façon générale. Nous appliquons l'apprentissage par renforcement (en l'occurrence, le Q-Learning) à ce problème, où les actions sont les services d'une chaîne de traitement d'extraction de l'information. L'objectif est de profiter du feedback utilisateur pour permettre au système d'apprendre la configuration idéale des services (ordonnancement, gazetteers et règles d'extraction) en fonction des caractéristiques des documents à traiter (langue, type, etc.). Nous menons de premières expériences avec des données de feedback générées automatiquement à partir d'un oracle, et les résultats sont encourageants

    Learning Probabilistic CP-nets from Observations of Optimal Items

    Get PDF
    International audienceModelling preferences has been an active research topic in Artificial Intelligence for more than fifteen years. Existing formalisms are rich and flexible enough to describe the behaviour of complex decision rules. However, for being interesting in practice, these formalisms must also permit fast elicitation of a user's preferences, involving a reasonable amount of interaction only. Therefore, it is interesting to learn not a single model, but a probabilistic model that can compactly represent the preferences of a group of users - this model can then be finely tuned to fit one particular user. Even in contexts where a user is not anonymous, her preferences are usually ill-known, because they can depend on the value of non controllable state variable. In such contexts, we would like to be able to answer questions like "What is the probability that o is preferred to o' by some (unknown) agent?", or "Which item is most likely to be the preferred one, given some constraints?". We study in this paper how Probabilistic Conditional Preference networks can be learnt, both in off-line and on-line settings. We suppose that we have a list of items which, it is assumed, are or have been optimal for some user or in some context. Such a list can be, for instance, a list of items that have been sold. We prove that such information is sufficient to learn a partial order over the set of possible items, when these have a combinatorial structure

    Making Bound Consistency as Effective as Arc Consistency

    Get PDF
    International audienceWe study under what conditions bound consistency (BC) and arc consistency (AC), two forms of propagation used in constraint solvers, are equivalent to each other. We show that they prune exactly the same values when the propagated constraint is connected row convex / closed under median and its complement is row convex. This characterization is exact for binary constraints. Since row convexity depends on the order of the values in the domains, we give polynomial algorithms for computing orders under which BC and AC are equivalent, if any

    Apprentissage de CP-nets probabilistes

    Get PDF
    National audienceNous présentons une extension probabiliste des réseaux de préférences conditionnelles (CP-nets). Nous montrons comment ce formalisme permet d'apprendre de façon approximative les préférences d'un ensemble d'utilisateurs sur des objets définis de façon combinatoire. Notre approche utilise un algorithme de type expectation-maximisation

    Apprentissage de GAI-décompositions

    Get PDF
    National audienceDans cet article, nous étudions l'acquisition de GAI- décompositions de degré connu d'ordres de préférence dont un ensemble d'exemples est donné en entrée. Nous montrons que l'on peut représenter les GAI- décompositions cohérentes avec un ensemble d'exemples comme les solutions d'un système d'équations linéaires. Nous en déduisons un algorithme d'apprentissage passif (utilisant seulement des exemples observés) pour les GAI-décompositions de degré connu et constant. Nous montrons enfin comment généraliser ce résultat pour calculer des GAI-décompositions de degré ou de taille minimaux

    Probabilistic Conditional Preference Networks (JIAF 2013)

    Get PDF
    International audienceIn order to represent the preferences of a group of individuals, we introduce Probabilistic CP-nets (PCP-nets). PCP-nets provide a compact language for representing probability distributions over preference orderings. We argue that they are useful for aggregating preferences or modelling noisy preferences. Then we give efficient algorithms for the main reasoning problems, namely for computing the probability that a given outcome is preferred to another one, and the probability that a given outcome is optimal. As a by-product, we obtain an unexpected linear-time algorithm for checking dominance in a standard, tree-structured CP-net.Afin de représenter les préférences d’un groupe d’individus, nous introduisons les CP-nets probabilistes (PCP-net). Les PCP-nets fournissent un langage compact pour représenter des distributions de probabilités sur des ordres de préférences. Nous pensons qu’ils sont utiles pour modéliser des agrégations de préférences ou encore des préférences bruitées. Puis, nous proposons des algorithmes efficaces pour les principaux problèmes de raisonnement ; par exemple pour calculer la probabilité qu’un objet donné est préféré `a un autre, ou encore la probabilité qu’un objet donné est optimal. En tant que résultat dérivé, on obtient un algorithme, en temps linéaire inattendu, de contrôle de la dominance pour une structure arborescente

    Probabilistic Conditional Preference Networks (UAI 2013)

    Get PDF
    International audienceThis paper proposes a \probabilistic" extension of conditional preference networks as a way to compactly represent a probability distributions over preference orderings. It studies the probabilistic counterparts of the main reasoning tasks, namely dominance testing and optimisation from the algorithmical and complexity viewpoints. Efficient algorithms for tree-structured probabilistic CP-nets are given. As a by-product we obtain a lineartime algorithm for dominance testing in standard, tree-structured CP-nets
    • …
    corecore